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摘要 通用 模型 是 近年 来 人 工 智能 发 展 的 重要 方向 之 一 。 随 着 模型 研发 应 用 的 增多 ， 模 型 的 社会 和 伦理 影响 
受到 广泛 关注 。 文 章 从 通用 模型 的 特性 出 发 、 分 析 了 模型 在 算法 、 数 据 和 算 力 3 个 层面 潜在 的 伦理 挑战 ， 包 
括 不 确定 性 、 真 实 性 、 可 靠 性 ， 偏 见 、 毒 性 、 公 平 、 隐 私 及 环境 问题 。 进 一 步 从 技术 哲学 的 视角 分 析 了 数据 
驱动 的 模型 在 人 与 世界 关系 中 的 中 介 性 作用 及 所 产生 的 “镜像 ”效应 问题 和 透明 性 问题 ， 提 出 了 人 与 世界 关 
系 的 新 形态 是 以 模型 (数据 ) 为 中 介 的 ， 即 “人 -模型 (数据 ) -世界 ”关系 。 最 后 ， 从 治理 技术 和 治理 机 制 
两 方面 反思 了 当前 的 应 对 措施 及 局 限 性 。 建 议 建 立 开 放 式 、 全 流程 、 价 值 府 入 的 伦理 规约 机 制 ， 保 障 通用 模 


型 在 合 规 、 合 伦理 的 框架 下 发 展 。 
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1 人 工 智能 步 入 “通用 模型 时 代 ” 


模型 ， 是 现实 世界 中 事件 、 系 统 、 行 为 或 者 自 
然 现象 的 抽象 数学 表征 "。 在 人 工 智 能 领域 ,通用 模 
型 ， 又 称 为 预 训练 模型 、 基 础 模型 或 大 模型 ， 是 指 经 
过 大 规模 数据 训练 ， 包 含 海量 模型 参数 ， 并 可 适用 于 
广泛 下 游 任务 的 模型 人 。 自 21 世纪 早期 深度 学 习 技 术 
兴起 ， 人 工 智能 的 研发 模式 主要 是 开发 专用 模型 ， 即 


* 通 信和 作者 


针对 特定 任务 、 场 景 ， 依 赖 大 量 人 力 的 “作坊 式 ”。 
然而 ， 由 于 专用 模型 泛 化 能 力 差 且 严重 依赖 专用 数据 
集 ， 导 致 开发 成 本 高 站。 近 几 年 ， 人 们 开始 聚焦 通用 
模型 ， 即 通过 预先 训练 一 个 超大 规模 的 模型 ， 再 用 少 
量 微 调 数 据 将 模型 迁移 到 具体 场景 中 ， 一 次 性 解决 下 
游 碎 片 化 任务 。 

在 目前 的 通用 模型 中 ， 自 然 语言 处 理 (NLP ) 和 
计算 机 视觉 (CV ) 是 发 展 最 快 的 两 个 领域 。NLP 指 
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的 是 建立 在 计算 机 编程 基础 上 的 人 与 计算 机 之 间 的 
自然 语言 通讯 ， 即 让 人 工 智 能 “说 人 话 ” 外 ， 代 表 模 
型 包括 Bert ( Google) , GPT-2/3 ( OpenAI) 、GLaM 
(Google) , "Zh" (华为) 、“ 悟 道 ”( 智 源 、 
清华 ) 等 。CV 指 的 是 利用 传感器 、 摄 像 头 、 计 算 
机 等 设备 模仿 生物 视觉 能 力 ， 即 让 人 工 智 能 “看 世 
界 ”， 代 表 包 括 Swin Transformer ( Microsoft) 、CLIP 
(OpenAI) 、“ 书 生 ” (上海 人 工 智 能 实验 室 ) 等 。 

从 技术 的 角度 来 看 ， 通 用 模型 所 基于 的 深度 神经 网 
络 和 自 监督 学 习 并 不 新 颖 ， 其 近年 来 的 迅速 发 展 主要 
归功 于 不 断 扩 大 的 模型 参数 量 、 训 练 数据 及 算 力 的 发 
展 。 比 如 ，OpenAI 在 2018 年 发 布 的 语言 模型 GPT-1 的 
参数 量 为 1.1 亿 ， 而 其 在 2020 年 发 布 的 GPT-3 模 型 的 参 
数量 已 高 达 1750 亿 ， 而 Google 的 Switch Transformer 和 
北京 智 源 研究 院 的 “悟道 ”2.0 的 参数 已 经 达到 万 亿 
级 别 握 。 模 型 参数 、 训 练 数据 和 算 力 的 扩 增 激发 了 模 
型 的 潜能 ， 提 高 了 模型 的 泛 化 性 和 适用 性 ， 提 升 了 开 
发 效率 。 在 通用 性 方面 ， 据 华为 数据 显示 ， 其 “ 盘 
古 ” 通 用 模型 可 以 适 配 电力 行业 的 100  RRIRIBE, 3x 
代 效 率 提升 了 10 倍 左右 ”。 在 精度 方面 ，Clark 等 中 的 
实验 显示 ， 在 没有 训练 的 情况 下 ， 人 类 评价 者 已 经 很 
难 区 分 测试 文本 是 GPT-3 生成 的 还 是 人 类 创作 的 。 在 
数据 效率 方面 ， 上 海 人 工 智 能 实验 室 的 “书生 ”模型 
仅 需 2 个 训练 样本 ， 就 能 在 花卉 种 类 识别 的 任务 上 达 
到 99.7% 的 精确 度 ”。 

通用 性 能 和 模型 质量 的 提升 降低 了 人 工 智能 的 
研发 和 使 用 门槛 ， 促 进 了 人 工 智能 的 规模 化 落地 ， 
未 来 可 能 带 来 从 技术 、 规 则 、 制 度 到 产业 的 整个 
人 工 智 能 领域 的 范式 转变 。 据 GPT-3 官网 显示 ， 截 
至 2022 年 2 月 ,已 经 有 超过 320 个 APP 采 用 了 GPT-3 
模型 ， 其 中 包括 人 们 熟知 的 WhatsApp 、Duolingo、 
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Excel 等 产品 ”。 人 工 智能 已 然 步 人“ 通用 模型 ”时 
代 。 


2 通用 模型 的 特性 及 伦理 挑战 


2.1 通用 模型 的 特性 
2.1.1 核心 特性 

通用 模型 的 核心 特性 可 以 归纳 为 涌现 性 
( emergence ) 和 同 质 性 (homogenization ) ", 

(1) 涌现 性 。 涌 现 是 复杂 系统 的 特征 ， 通 常 指 
的 是 “在 复杂 系统 的 自 组 织 过 程 中 ， 出 现 新 颖 而 连 
贯 的 结构 、 模 式 和 属性 ”m1。 涌 现 具 有 2 个 明显 特 
TE: CD 单 体 之 间 相 互 作用 产生 的 协同 效应 ， 这 使 群 
体 作 为 一 个 整体 可 以 产生 个 体 简 单 相 加 无 法 达到 的 
IRo D 在 临界 状态 下 质 的 改变 ， 这 种 质变 的 例子 
包括 自然 界 中 的 雪崩 、 冰 化 成 水 ， 又 或 者 经 济 领 域 
的 股市 价格 波动 等 由。 在 通用 模型 的 语 境 下 ， 涌 现 性 
间 的 是 模型 的 功能 不 是 具体 建构 的 ， 而 是 在 模型 的 
大 规模 训练 过 程 中 自主 涌现 出 来 的 。 通 用 模型 的 功 
能 涌现 性 根植 于 机 器 学 习 的 特性 。 机 器 学 习 领 域 的 
先锋 一 一 Samuelm 指出 ， 机 器 学 习 算 法 的 本 质 是 让 计 
算 机 自动 学 习 训 练 数据 的 内 在 规律 ， 并 用 这 些 规律 
对 未 知 数据 进行 预测 ， 这 种 基于 训练 数据 产生 模型 
的 算法 具有 涌现 性 的 特征 。 通 用 模型 在 大 规模 算 力 
和 数据 的 加 持 下 ， 不 仅 可 以 自动 指定 任务 的 执行 方 
式 、 提 取 数 据 的 内 在 特征 ， 还 可 以 涌现 出 一 些 预料 
之 外 的 功能 外。Steinhardt"" 将 通用 模型 的 涌现 性 进 
一 步 解释 为 由 于 参数 数量 增加 而 引起 的 行为 上 的 质 
变 ， 这 种 质变 可 以 引起 系统 的 快速 改变 ， 在 产生 新 
功能 的 同时 也 可 能 产生 新 的 风险 。 

(2) 同 质 性 。 同 质 性 ， 与 异 质 性 (heterogenization ) 
相反 ， 指 的 是 构成 物体 或 人 的 单元 在 质量 、 结 构 、 


CD AGAS. 《盘古 预 训练 大 模型 》 和 我 们 对 大 模型 的 思考 . (2021-07-07)[2022-06-29]. http://valser.org/webinar/slide/slides/20210707/ 
0707-VALSE-%E5%A4%A7%E6%A8%A1%E5%9E%8B-%WE8%B0%A2%E5%87%8C%E6%9B%A6.pdf. 


© 数据 来 源 : GPT-3 应 用 官网 (https://gpt3demo.com/) 。 
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状态 等 特征 上 的 单一 或 相似 性 9? 。 在 通用 模型 语 境 
下 ， 同 质 性 指 的 是 模型 构建 方法 的 相似 性 。 主 要 表现 
在 2 个 方面 : CD 横向 的 同 质 化 ， 指 的 是 类 似 的 网 络 
架构 (如 Transformer ) 已 经 被 广泛 用 于 诸多 领域 的 
模型 开发 中 。 如 文本 、 图 片 、 视 频 、 和 蛋白 质 结构 预测 
等 ， 使 得 模型 的 能 力 可 以 惠及 诸多 领域 。@? 纵向 的 
同 质 化 ， 指 的 是 类 似 或 同一 模型 被 广泛 用 于 解决 下 游 
任务 。 通 用 模型 领域 模型 建构 的 同 质 化 主要 源 于 模型 
强 泛 化 性 所 带 来 的 开发 、 优 化 、 应 用 等 方面 效率 的 提 
升 。 此 外 ， 通 用 模型 作为 一 种 中 间 模 型 ， 其 问题 也 会 
被 下 游 模 型 所 继承 ， 带 来 “一 荣 俱 荣 ， 一 损 俱 损 ”的 
效果 。 
2.1.2 衍生 特性 

通用 模型 还 有 两 个 衍生 特性 : 大 规模 数据 训练 和 
任务 泛 化 。Q@ 大 规模 数据 训练 不 仅 是 模型 功能 涌现 性 
的 重要 前 提 ， 也 对 提高 模型 整体 适用 性 、 准 确 度 和 效 
率 发 挥 了 积极 作用 。@ 通用 模型 任务 泛 化 的 特性 ， 指 
的 是 模型 可 以 作为 具有 “通才 ”能 力 的 中 间 模 型 ， 被 
使 用 者 迁移 处 理 各 种 不 同 的 、 其 至 未 知 的 任务 ， 而 类 
似 网 络 架 构 在 多 种 模 态 模型 ( 文字 、 图 片 、 视 频 等 ) 
中 的 运用 更 是 拓宽 了 模型 的 下 游 应 用 领域 。 在 这 个 意 
义 上 ， 通 用 模型 可 以 被 看 作 是 一 种 促 能 技术 (enabling 
technology ) 。 
2.2 通用 模型 的 伦理 挑战 

通用 模型 的 上 述 特 性 推进 了 人 工 智能 技术 的 发 展 
和 规模 化 落地 ， 但 也 带 来 一 系列 伦理 挑战 ， 包 括 涌 现 
性 伴随 的 功能 不 确定 、 鲁 棒 性 欠缺 所 导致 的 可 靠 性 问 
题 与 认 知 风险 ; 大 规模 数据 训练 面临 的 隐私 安全 、 偏 
见 、 毒 性 、 公 平 性 问题 ， 同 质 性 和 任务 泛 化 对 上 述 问 
题 在 横向 和 纵向 上 的 放大 和 加 深 ; 使 用 海量 算 力 对 能 
源 的 消耗 和 环境 的 影响 。 总 的 来 说 ， 通 用 模型 面临 的 
伦理 挑战 主要 表现 在 3 个 层面 。 


2.2.1 算法 层面 : 不 确定 性 与 真实 性 、 可 靠 性 问题 

从 认识 论 角度 看 ， 通 用 模型 的 涌现 性 直接 呈现 出 
的 是 鲁 棒 性 欠缺 ， 导 致 算法 的 不 确定 性 和 不 可 解释 
性 ， 其 结果 也 影响 到 算法 的 真实 性 和 可 靠 性 ， 而 同 质 
性 则 放大 了 这 些 问 题 在 横向 和 纵向 上 的 影响 。 

Hendrycks 等 '" 将 机 融 学 习 的 鲁 棒 性 解释 为 系统 
面 对 黑 天 鹅 事件 和 对 抗 性 威胁 时 表现 出 的 能 力 。 以 交 
通 灯 为 例 ， 遵 守信 号 灯 行 驶 在 绝 大 多 数 场景 下 是 安全 
的 ， 但 是 也 有 极 少数 特殊 情况 。 比 如 ， 当 十 字 路 口 横 
向 来 车 闪 红 灯 时 ， 纵 向 行驶 的 车 辆 如 若 还 按 绿 灯 行 驶 
就 会 造成 车 祸 。 考 虑 到 通用 模型 的 通用 性 质 ， 现 阶段 
大 部 分 模型 在 制定 安全 性 指标 时 会 将 一 套 复杂 的 人 工 
智能 安全 性 原则 汇总 到 一 个 概括 性 的 综合 指标 中 ， 而 
不 对 其 进行 更 细 粒 度 的 区 分 ; 但 在 具体 应 用 场景 中 ， 
往往 需要 考虑 更 细 粒 度 的 安全 问题 ， 如 信号 灯 故 障 及 
其 他 突 发 、 极 端 情况 。 

不 同 于 黑 天 鹅 事 件 ， 对 抗 性 威胁 通常 是 针对 算法 
或 模型 漏洞 和 弱点 的 故意 性 攻击 ， 操 作 方 式 通常 是 刻 
意 在 样本 中 加 入 人 类 无 法 察觉 的 干扰 "”"。2015 年 ， 
谷歌 的 研究 人 员 发 现 ， 对 抗 样本 可 以 轻易 地 欺骗 
GoogLeNet 模型。 研究 人 员 制 作 了 两 张 熊猫 图 片 ， 并 
在 其 中 一 幅 的 像素 层面 加 入 细微 干扰 作为 对 抗 样本 ， 
对 人 类 肉眼 来 说 ， 这 两 张 图 几乎 是 一 模 一 样 ， 而 机 器 
学 习 模 型 却 以 高 置信 和 度 将 对 抗 样本 误 读 为 长 臂 猿 1。 
类 似 的 情况 还 有 ，OpenAI 的 研究 人 员 发 现 其 实验 室 最 
新 的 通用 视觉 模型 可 以 轻易 被 欺骗 。 例 如 ， 如 果 在 一 
页 青 苹 果 上 贴 上 “ipod” 标 签 ， 那 该 模型 有 99.7% 的 
概率 将 图 中 物体 识别 成 ipod， 而 不 是 青 苹果 呈 。 

产生 对 抗 威 胁 的 直接 原因 是 模型 与 人 类 处 理 信 息 
方式 的 不 同 ， 人 类 是 基于 各 种 可 理解 的 特征 来 识别 图 
片 中 的 内 容 ， 如 熊猫 的 黑 眼 圈 、 黑 耳 条 等 。 而 模型 的 
识别 方法 是 基于 对 大 规模 数据 样本 的 拟 合 学 习 ， 得 出 


(3) Cambridge Dictionary. [2022-06-29]. https://dictionary.cambridge.org/dictionary/english/homogeneity. 
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一 个 可 以 将 所 有 图 片 与 标签 相关 联 的 参数 框架 ， 然 后 
再 将 这 种 关联 泛 化 到 其 他 任务 中 。 但 是 这 种 关联 本 质 
上 源 于 模型 的 涌现 性 ， 具 有 不 确定 性 ， 有 时 是 不 可 靠 
的 。 而 由 于 通用 模型 作为 “中 介 ” 和 “ 促 能 ”技术 的 
重要 意义 ， 在 下 游 的 应 用 中 起 到 了 “母体 ”的 作用 ， 
模型 的 细小 误差 可 能 对 下 游 大 规模 应 用 带 来 影响 。 

究 其 根本 ， 产 生 对 抗 性 威胁 的 深层 原因 是 模型 无 
法 从 事实 上 区 分 信息 的 真实 性 ， 从 而 产生 虚假 的 、 误 
导 性 的 或 低 质 量 的 结果 。 并 且 ， 深 度 神经 网 络 架构 可 
能 使 每 次 推理 结果 都 不 同 且 可 解释 性 低 ， 这 不 仅 对 了 
解 模型 能 做 什么 、 为 什么 这 么 做 及 如 何 做 带 来 困难 ， 
更 是 为 模型 的 审核 与 合 规 带 来 了 一 系列 挑战 人 中。“ 大 
数据 + 海量 参数 + 大 算 力 ”提升 了 模型 的 总 体 表现 ,但 
是 似乎 并 没有 让 模型 做 到 像 人 一 样 的 理解 。 这 在 类 似 
下 棋 等 娱乐 场景 并 不 会 对 人 类 生活 产生 负面 影响 。 但 
是 ， 对 于 诸如 医疗 诊断 、 刑 侦 司 法 、 自 动 驾 驶 等 重要 
领域 ,模型 功能 的 涌现 性 、 应 用 的 同 质 化 和 可 解释 问 
题 可 能 带 来 潜在 风险 。 
2.2.2 数据 层面 : 隐私 安全 、 偏 见 、 毒 性 与 公平 性 问题 

现 阶 段 ， 通 用 模型 在 数据 层面 的 主要 伦理 风险 
分 2 类 : CD 训练 样本 中 含有 的 偏见 和 毒性 (toxicity ) 
问题 ; @ 数据 所 涉及 的 隐私 安全 问题 。 

(1) 通用 模型 训练 所 用 的 数据 量 大 且 多 为 无 标 
注 数据 ， 样 本 中 易 存 在 偏见 和 毒性 问题 ， 可 能 对 个 体 
或 群体 带 来 歧视 和 不 公 ， 且 通用 模型 的 同 质 化 特征 可 
能 会 放大 或 深化 这 些 问题 。 偏 见 可 以 理解 为 一 种 态度 
或 行为 上 的 倾向 ， 在 现实 生活 中 常 表现 为 对 特定 人 群 
的 区 别 对 待 ， 可 能 造成 直接 或 间接 的 歧视 和 不 公 。 美 
国 国 家 标准 与 技术 人 研究 院 将 人 工 智能 偏见 分 为 3 类 : 
CD 系统 偏见 ， 指 由 历史 、 社 会 造成 的 对 某 些 群体 的 
偏 祖 或 贬低 ; © 统计 偏见 ， 指 由 于 样本 的 代表 性 缺 
陷 而 导致 的 统计 上 的 偏差 ; O 人 类 偏见 ， 指 人 类 决 
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策 者 思维 的 系统 性 错误 ， 这 种 偏见 通常 是 隐 式 的 、 
与 过 往 经 验 相 联 系 '"。 毒 性 或 有 害 言论 与 偏见 类 似 ， 
但 特 指 粗鲁 、 不 尊重 或 不 合理 的 言论 ， 如 侮辱 、 侯 
恨 、 脏 话 、 人 身 攻 击 、 性 骚扰 等 "。 从 来 源 上 说 ， 偏 
见 和 有 害 语言 都 是 复杂 的 历史 产物 ， 在 人 类 社会 中 难 
以 彻底 消除 ; 但 如 不 加 以 注意 ， 人 工 智 能 就 可 能 会 拓 
宽 、 深 化 、 合 并 甚至 标准 化 这 些 问 题 ， 或 者 带 来 新 的 
问题 。 在 通用 模型 的 语 境 下 ， 语 料 库 和 模型 输出 的 毒 
性 、 偏 见 程度 存在 明显 相关 性 。 当 样本 中 某 些 群 体 被 
缺乏 、 不 实 或 过 度 代 表 时 ， 模 型 结果 就 可 能 使 部 分 人 
群 一 一 特别 是 边缘 群体 遭受 不 公正 的 对 待 ， 继 承 或 加 
深 社会 刻板 印象 。 例 如 ，OpenAI 在 用 ZS CLIP 模 型 鉴 
别 10000 张 FairFace 数 据 库 的 图 片 时 ， 结 果 显 示 ， 通 
用 模型 对 不 同人 群 (如 种 族 、 性 别 、 年 龄 等 ) 的 识别 
是 不 同 的 ， 如 更 容易 将 男性 和 20 岁 以 下 人 群 视 为 罪 
犯 , 更 容易 将 女性 识别 为 保姆 '"。 

(2) 隐私 安全 也 是 通用 模型 在 数据 层面 的 主要 
伦理 挑战 之 一 ， 包 括 数 据 泄 露 、 功 能 人 备 变 (function 
creep) 、 人 伪造、 诈骗 等 具体 问题 。 隐 私 是 数字 化 世 
界 的 主要 伦理 问题 之 一 ""。 通 用 模型 研发 和 应 用 涉及 
的 隐私 风险 主要 来 源 于 原始 训练 数据 中 包含 的 个 人 信 
息 和 模型 强大 的 推理 能 力 ""。 通 用 模型 训练 多 采用 网 
络 公开 数据 ( 如 网 页 、 论 坛 、 论 文 、 电 子 书 等 ) ,其 
中 可 能 包含 姓名 、 家 庭 住址 、 电 话 号 码 等 个 人 信息 ， 
甚至 包含 生物 识别 、 宗 教 、 医 疗 、 行 踪 轨 迹 等 敏感 信 
息 ， 这 些 信息 的 泄露 不 仅 违法 ， 且 直接 侵害 到 个 人 的 
尊严 、 人 号 和 财产 安全 。 通 用 模型 的 “一 损 俱 损 ” 效 
应 也 意味 着 ， 如 果 模 型 非法 或 不 当 使 用 了 隐私 数据 ， 
下 游 所 有 应 用 都 会 承担 这 种 隐私 风险 中。 恶意 使 用 者 
还 可 能 将 泄露 信息 进一步 用 于 伪造 、 身 份 冒 用 、 诈 骗 
等 不 法 目的 ， 造 成 功能 伴 变 〈 即 泄露 或 超出 原 目的 使 
H) 。 如 近 几 年 兴起 的 深度 伪造 技术 ， 据 Sensity 的 调 


(4) Jigsaw. About the API. [2022-06-29]. https://developers.perspectiveapi.com/s/about-the-api. 
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查 显 示 ， 在 公开 发 布 的 深 伪 作品 中 ，96% 都 是 虚假 成 
人 内 容 ， 即 将 网 络 图 片 合 成 到 情色 视频 或 图 片上 ， 而 
受害 者 绝 大 多 数 都 是 女性 "1。 
2.2.3 算 力 层面 : 可 持续 发 展 与 全 球 正义 

在 全 球 “ 双 碳 ” 背 景 下 ， 模 型 在 算 力 层 面 所 产生 
的 能 源 和 环境 影响 尤为 值得 重视 。 为 应 对 气候 危机 ， 
20154E, 178 个 缔约 方 签署 了 《巴黎 协定 》， 将 控制 
气温 上 升 作为 长 期 目标 ， 我 国 也 于 2020 年 明确 了 “ 双 
碳 ” 目 标 。 近 年 来 ，“ 军 备 竞 赛 式 ”的 通用 模型 研发 
所 造成 的 环境 问题 已 经 备 受 瞩目 ”"。Strubell 等 "梳理 
了 几 种 常用 的 深度 学 习 语言 模型 在 训练 环节 的 碳 足 迹 
和 计算 花费 。 结 果 显 示 ， 训 练 这 些 模型 产生 的 二 氧化 
碳 当量 (CO,e ) 从 0.012 一 284 吨 不 等 。 如 在 不 做 超 参 
数 调整 的 情况 下 ， 训 练 一 个 基于 Bert 的 模型 所 造成 的 
碳 排放 大 致 相当 于 一 次 环 美 飞行 所 造成 的 排 量 ; 而 训 
练 神 经 架构 搜索 模型 所 需 的 计算 费用 高 达 约 90 万 一 
300 万 美元 不 等 。 除 了 训练 环节 ， 模 型 在 应 用 过 程 中 
的 环境 问题 也 不 容 忽 视 。 图 灵 奖 得 主 帕 特 森 (David 


预 训练 模型 本 质 上 也 是 数据 驱动 的 ， 数 据 是 模型 
知识 的 资料 来 源 ， 模 型 的 能 力 来 自 对 大 量 无 标注 训 
练 数据 中 抽象 共 现 模式 (co-occurrence patterns ) 的 学 
习 中 。 举 例 来 说 ， 如 果 “ 面 包 与 果 沸 ”在 训练 数据 中 
出 现 的 概率 很 高 ， 那 么 在 运用 该 模型 进行 文本 生成 的 
时 候 ， 如 果 用 户 输入 “面包 与 ”， 模 型 会 在 提示 栏 中 
显示 “ 果 效 ”等 其 他 高 频 共 现 词 。Bender 等 ”将 大 语 
言 模型 的 这 种 映射 行为 称 为 “ 婴 囊 学 舌 ”。 这 当中 包 
含 两 个 问题 O 通用 模型 的 “镜像 ”效应 在 透 过 数据 
表征 世界 的 时 候 ， 也 会 将 训练 数据 中 包含 的 社会 问题 
不 加 分 辨 地 体现 出 来 。 对 于 通用 模型 来 说 ， 这 种 能 
的 核心 是 在 海量 无 标注 数据 中 学 习 通 用 的 特征 表示 ， 
提取 出 有 价值 的 模式 和 规律 ， 而 不 对 数据 内 容 加 以 鉴 
别 ， 这 就 意味 着 ， 如 果 训 练 数据 中 与 某 些 词汇 (如 
“黑人 ” ) 相关 联 的 内 容 多 为 负面 的 或 刻板 印象 ， 则 
模型 输出 的 结果 就 可 能 直接 体现 这 些 问题 ， 并 可 能 作 
为 数字 记忆 将 这 些 内 容 周 化 后。@) 由 于 通用 模型 的 映 
射 行为 反映 的 是 训练 数据 的 内 在 关联 ， 而 不 是 全 面 丰 


Patterson ) 等 "的 研究 显示 ， 多 数 公司 在 运行 深度 神 
经 网 络 模型 时 所 消耗 的 能 源 和 算 力 要 多 于 模型 训练 阶 
Bt, 

算 力 背后 的 能 源 和 环境 问题 已 经 引发 关于 环境 后 
果 和 全 球 正 义 的 讨论 。 一 方面 ， 涉 及 代 内 正义 ， 因 为 
享受 到 通用 模型 便利 的 往往 是 发 达 国 家 和 人 和 群 ， 而 被 
气候 变 暖 影响 最 严重 的 国家 往往 是 落后 的 发 展 中 国 
家 ""。 男 一 方面 ， 能 源 消耗 和 环境 污染 也 关 涉 代 际 正 
义 ， 即 对 未 来 子孙 的 影响 。 


c 


3 通用 模型 的 中 介 性 

美国 著名 计算 机 科学 家 格雷 ( Jim Gray ) “指出 ， 
传统 上 ， 科 学 人 研究 的 范式 主要 是 实证 的 、 理 论 的 和 计 
算式 的 ， 而 随 着 仿真 计算 和 数据 收集 工具 的 发 展 ， 大 
量 的 数据 被 收集 起 来 ， 这 也 促使 新 的 科学 范式 一 一 数 
据 密集 型 科学 的 产生 。 
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富 、 动 态 复杂 的 生活 世界 ， 选 择 哪 些 数据 集 、 依 据 什 
么 样 的 标准 ， 以 及 如 何 界定 核心 概念 都 会 对 结果 产生 
影响 ， 导 致 模型 结果 可 能 存在 可 靠 性 问题 不 。 以 上 两 
个 问题 反映 出 数据 驱动 的 模型 可 能 存在 的 问题 ， 即 通 
用 模型 作为 一 种 “镜像 ”可 能 无 法 准确 反映 世界 ， 还 
会 影响 人 类 对 世界 的 认识 。 

通用 模型 的 这 种 “镜像 ”可 以 借用 伊 德 (Don 
Ihde ) 的 技术 哲学 来 解释 。 作 为 一 种 技术 中 介 ， 通用 
模型 可 以 调节 人 类 认识 和 解释 世界 的 过 程 。 伊 德 在 
探讨 技术 在 人 与 世界 之 间 关 系 时 提出 技术 与 人 的 4 种 
关系 。 在 具 身 关系 中 ， 人 类 与 技术 作为 一 个 整体 
去 经 验 世界 〈 如 眼镜 ) ， 此 时 技术 是 人 “身体 的 延 
伸 ”， 即 (人 -技术 ) 一 世界 ， 有 助 于 放大 某 些 感官 
意识 。 具 身 关 系 要 求 技术 的 知觉 透明 性 ， 即 人 类 越 
了 解 技术 ， 人 与 技术 融合 所 能 产生 的 效用 越 大 。 在 
诠释 关系 中 ， 人 类 对 世界 的 认识 是 经 过 技术 工具 表 


202303.09993v1 


chinaXiv 


征 转 换 的 ( 如 仪表 盘 ) ， 即 人 一 (技术 -世界 ) , 
人 们 认识 的 世界 是 由 技术 诠释 的 ， 技 术 是 世界 的 表 
征 。 诠 释 关系 要 求 技术 达到 一 定 的 发 展 程度 ， 以 精 
准 反 映 世 界 。 在 它 异 关系 中 ， 强 调 技术 的 自主 性 ， 
即 当 技 术 具 有 它 者 性 〈 如 人 工 智能 ) 、 成 为 认识 的 
客体 时 ， 透 过 技术 展现 的 世界 就 变 成 了 一 种 技术 的 
加 工 物 ， 表 述 为 人 一 技术 -〈- 世 界 ) 。 在 背景 关系 
中 ， 技 术 作为 一 种 技术 背景 ， 成 为 日 常生 活 的 一 部 
分 (如 暖气 ) ， 而 人 往往 是 在 技术 失效 时 才能 意识 
到 它 的 存在 ， 即 人 一 (技术 /世界 ) 。 

在 通用 模型 的 语 境 下 ， 伊 德 的 “人 -技术 -世界 ” 
被 “人 -模型 (数据 ) -世界 ”所 取代 。 一 方面 ， 通 用 
模型 在 某 种 程度 上 可 以 理解 为 数据 和 部 分 世界 的 “ 镜 
像 ”， 拥有 表征 相关 事物 复杂 逻辑 关系 的 能 力 ， 人 类 
透 过 模型 来 认识 世界 。 然 而 ， 模 型 的 “镜像 ”效应 也 
将 映射 出 现实 世界 中 偏见 歧视 等 伦理 问题 ， 对 公平 、 
自由 、 人 格 尊严 等 伦理 价值 造成 挑战 。 另 一 方面 ， 
作为 “身体 的 延伸 ”， 人 类 又 可 能 与 模型 融合 在 一 起 
去 经 验 世 界 ， 但 是 融合 的 实际 效用 取决 于 技术 的 透明 
性 ， 在 通用 模型 语 境 下 主要 表现 为 可 解释 性 问题 ， 即 
是 否 可 以 从 人 类 的 角度 理解 从 输入 到 输出 背后 的 映射 
人 逻辑 。 这 关乎 人 类 是 否 可 以 信任 模型 ， 包括 模型 是 否 
可 靠 ， 是否 能 够 符合 具体 的 法 律 法 规 和 伦理 规范 ， 是 
否 可 以 用 于 科学 研究 等 目的 ， 以 及 是 否 可 以 部 署 到 重 
要 的 生活 领域 ， 如 帮助 儿童 学 习 知 识 ， 辅 助 法 官 判 案 
等 。 传 统 上 ， 判 定 某 个 人 或 团体 的 言论 是 否 可 靠 的 基 
本 前 提 是 他 们 知道 自己 在 说 什么 ， 即 理解 这 些 言论 的 
意思 和 背后 映射 的 价值 规范 、 行 为 要 求 和 社会 影响 。 
但 是 ， 深 度 神 经 网 络 的 可 解释 性 和 透明 性 较 低 ， 更 多 
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通用 模型 的 伦理 与 治理 : 挑战 及 对 策 


综 上 ， 通 用 模型 在 反映 世界 和 让 人 理解 两 方面 还 
存在 一 些 问 题 ， 作 为 人 与 世界 关系 的 技术 中 介 ， 通 用 
模型 在 帮助 人 类 处 理 大 规模 下 游 任务 的 同时 ， 也 带 来 
了 一 系列 的 不 确定 性 。 通 用 模型 的 “镜像 ”只 是 对 训 
练 数据 的 镜像 ， 而 不 完全 是 现实 世界 的 镜像 ， 且 人 类 
还 无 法 完全 理解 、 信 任 模型 的 预测 逻辑 ， 如 若 想 让 模 
型 的 中 介 作 用 更 加 合理 ， 人 类 必须 在 环 路 之 中 发 挥 更 
大 的 作用 。 


治理 措施 及 局 限 性 


通用 模型 的 社会 与 伦理 维度 关乎 模型 未 来 的 技术 
走向 、 规 则 制定 、 接 受 度 等 一 系列 问题 ， 属 于 通用 模 
型 发 展 的 基础 问题 。 目 前 ， 很 多 企业 及 高 校 都 已 启动 
针对 通用 模型 社会 和 伦理 影响 的 研究 ， 并 制定 系列 举 
措 对 模型 的 研发 和 应 用 进行 治理 。 

4.1 治理 技术 : 上 、 下 游 伦 理 调 节 

当前 ， 应 对 通用 模型 伦理 挑战 的 技术 可 以 粗略 划 
分 为 上 游 手 段 和 下 游 手 段 ， 主 要 是 通过 对 上 、 下 游 训 
练 数 据 进行 伦理 调节 以 降低 模型 “镜像 ”效应 的 潜在 
负面 影响 。 

上 游 手 段 主要 对 应 模型 的 预 训练 阶段 。 最 典型 的 
举措 就 是 对 训练 数据 集 进行 清洗 。 如 ，DeepMind 在 改 
进 TransformerXL 模型 的 表现 时 ， 删 去 了 被 Perspective 
API 注释 为 有 毒 的 内 容 *"。Perspective API 通 过 志愿 者 
打分 的 方式 来 量化 线 上 评论 的 分 数 一 一 如 果 10 个 评分 
者 中 有 6 个 将 评论 标记 为 有 毒 ， 就 将 该 评论 的 毒性 标 
记 为 0.6， 代 表 词 条 文本 有 60% 的 可 能 性 被 认为 是 有 害 
的 ， 该 评估 模型 目前 已 被 广泛 用 于 处 理 通用 模型 的 
毒性 问题 。 由 于 毒性 言论 和 偏见 可 能 对 特定 人 群 造成 


的 是 基于 数据 和 参数 的 规模 效应 给 出 的 粗略 结果 。 在 
某 种 程度 上 是 用 相关 性 代替 了 因果 性 ， 伴 随 而 来 的 就 
是 上 述 信任 的 问题 。 


直接 或 间接 的 不 公 且 可 能 降低 模型 精度 ， 改 善 这 些 问 
题 对 提高 模型 公平 性 、 可 靠 性 等 具有 明显 益处 。 
下 游 手 段 主要 指 模型 为 适应 具体 任务 而 进行 微调 


(5) Jigsaw. About the API. [2022-06-29]. https://developers.perspectiveapi.com/s/about-the-api. 
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的 阶段 。 为 改善 模型 在 特定 领域 的 表现 ， 多 数 人 研究 团 
队 倾 向 于 下 游 处 理 ， 即 在 已 经 完成 预 训练 的 模型 的 基 
础 上 用 有 指向 性 的 小 规模 数据 集 进行 微调 汪 。 有 目前， 
OpenAI, Google 等 都 使 用 了 下 游 微调 的 手段 来 改善 模 
型 在 特定 社会 和 伦理 维度 上 的 表现 ， 以 增加 模型 在 价 
值 规范 方面 的 敏感 度 和 “理解 力 ”， 提 高 通用 模型 作 
为 人 与 世界 中 介 的 伦理 合理 性 ”1。 
4.2 治理 机 制 : 宏观 与 微观 层面 并 行 

通用 模型 的 治理 机 制 主 要 包括 宏观 和 微观 两 个 层 
面 。 


在 宏观 层面 ， 通 用 模型 治理 要 符合 当前 人 工 智能 
治理 的 总 体 框架 。 政 府 、 国 际 组 织 、 企 业 等 都 针对 人 
工 智 能 的 发 展 制定 了 系列 治理 机 制 。 总 的 来 说 ， 这 些 
机 制 包括 伦理 原则 ( 如 我 国 的 《新 一 代 人 工 智能 治理 
原则 一 一 发 展 负 责任 的 人 工 智 能 》) 、 政 策 战 略 ( 如 
美国 的 《美国 人 工 智 能 倡议 》) 、 法 律 法 规 ( 如 欧盟 
的 《人 工 智 能 法 〈 草 案 ) 》) 、 标 准 (IEEE 的 P7000 
系列 ) 等 。 通 用 模型 的 治理 隶属 于 相关 主体 发 布 的 人 
工 智能 治理 框架 ， 同 时 受到 行业 组 织 、 技 术 团体 、 新 
闻 媒 体 、 公 众 等 多 元 主体 的 监督 。 

在 微观 层面 ， 有 必要 针对 通用 模型 的 特性 制定 专门 
性 治理 机 制 。 目 前 通用 模型 的 专题 治理 以 模型 研发 、 应 
用 的 头 部 机 构 为 主导 ， 主 要 做 法 是 针对 模型 的 发 布 、 应 
用 制定 一 系列 制度 措施 ， 包 括 : CD 分 阶段 开放 模型 。 
OpenAI 分 4 个 阶段 、 由 小 至 大 开放 了 GPT-2， 以 逐步 
了 解 模 型 特性 ， 减 少 被 滥用 的 可 能 性 。@ 只 针对 特定 
对 象 开 放 ， 并 与 合作 者 签订 法 律 协议 以 规定 双方 的 权 
利和 义务 。@) 制定 模型 应 用 的 具体 规则 。OpenAI 在 开 
放 GPT3 早期 模型 时 会 审查 所 有 使 用 案例 ， 并 及 时 中 止 
可 能 产生 危害 的 应 用 ， 降 低 潜在 风险 所。 

上 述 治理 机 制 和 技术 都 在 一 定 程度 上 降低 了 通用 
模型 潜在 的 社会 和 伦理 风险 ， 但 是 这 些 措施 仍 具 有 一 
定 的 局 限 性 。Q 现 阶段 针对 通用 模型 的 专题 治理 机 制 
和 欠缺 系统 性 ， 没 有 与 人 工 智 能 的 总 体 治 理 框架 紧密 结 
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合 。 如 果 审 查 下 游 应 用 案例 的 伦理 权力 被 模型 提供 者 
垄断 ， 这 种 权力 的 集中 不 仅 会 降低 伦理 审查 的 效力 ， 
也 提高 了 使 用 者 的 风险 。@ 现 阶段 的 治理 技术 还 是 
相对 割裂 和 零散 的 ， 没 有 将 技术 与 伦理 很 好 的 融合 。 
例如 ， 作 为 应 用 最 广泛 的 去 毒 评 估 模 型 Perspective 
API 的 众 包 评审 机 制 更 多 是 基于 统计 和 描述 的 方法 ， 缺 
乏 规 范 性 和 理论 性 依据 。 一 方面 ， 有 害 文本 的 判断 与 
个 人 经 历 、 文 化 背景 、 内 容 场景 等 有 很 强 的 关联 性 ， 
对 用 户 A 或 某 个 地 域 的 群体 不 具 冒 犯 性 的 言论 可 能 会 
冒犯 到 用 户 B 或 另外 一 个 地 域 的 群体 。 因 此 ， 需 要 在 
评估 之 前 充分 考虑 评审 规则 的 合理 性 、 评 审 员 的 多 样 
性 等 问题 。 另 一 方面 ，API 现 有 的 打分 方式 无 法 区 分 有 
害 文本 的 危害 程度 。 现 有 的 评分 方式 是 基于 文本 被 认 
为 有 害 的 可 能 性 ， 即 虽然 一 些 行为 比 其 他 行为 更 让 人 
感到 冒犯 ,但 模型 只 能 区 分 一 个 行为 的 冒犯 性 与 否 ， 
而 不 能 体现 冒犯 行为 之 间 的 质量 差异 中 。 有 必要 在 系 
统 理 论 规范 的 指导 下 ， 探 索 更 合理 的 分 级 机 制 。 

总 的 来 说 ， 现 阶段 应 对 措施 的 局 限 性 与 缺乏 系统 
性 考虑 和 缺乏 理论 性 、 规 范 性 指导 密切 关联 。 通 用 模 
型 作为 训练 数据 的 “镜像 ”， 具 有 建 模 复杂 问题 和 映 
射 社会 问题 的 能 力 ， 但 却 存在 对 现实 世界 中 事实 与 价 
值 的 粗糙 处 理 ， 导 致 所 谓 的 “长 尾 效应 ”， 即 从 最 普 
遍 需 求 的 角度 来 看 ， 模 型 整体 上 表现 优异 且 符 合 各 
项 指标 ， 但 是 对 于 差异 化 、 特 殊 性 、 个 性 化 的 需求 而 
言 ， 模 型 仍然 存在 风险 。 为 了 使 通用 模型 输出 的 结果 
更 符合 人 类 价值 观 ， 在 模型 发 展 的 早期 就 将 伦理 理论 
和 规范 介入 是 十 分 必要 的 。 


5 展望 : 建立 开放 式 、 全 流程 、 价 值 嵌入 的 
伦理 工具 
现 阶段 应 对 措施 的 局 限 性 表明 ， 下 一 阶段 的 通用 
模型 治理 需要 将 以 下 3 个 因素 纳入 考量 。 
(D) 要 乘 持 开放 式 的 态度 ， 充 分 评估 数据 和 模 
型 的 伦理 影响 和 风险 点 。 这 样 做 的 前 提 是 建立 拥有 交 
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又 学 科 背 景 的 伦理 委员 会 、 透 明 的 评审 规则 、 合 理 的 
伦理 权力 分 配 机 制 和 第 三 方 审查 机 制 。 在 此 基础 上 ， 
从 多 角度 评估 数据 和 模型 的 潜在 影响 ， 特 别 是 数据 的 
多 样 性 、 文 化 背景 和 模型 应 用 的 时 间 和 空间 属性 ， 充 
分 评估 模型 在 特定 场景 下 、 对 特定 人 群 可 能 产生 的 影 
响 ， 降 低 潜在 的 负面 效应 。 

(2) 从 全 流程 的 视角 出 发 ， 将 伦理 考量 纳入 通 
用 模型 及 其 生态 系统 建设 进程 之 中 。 一 方面 ， 要 通过 
教育 、 培 训 等 手段 加 强 科研 人 员 和 使 用 人 员 的 伦理 
养 ， 让 相关 人 和 群 切实 体会 到 科技 伦理 的 重要 性 ， 负 责 
任 地 研发 、 使 用 通用 模型 。 另 一 方面 ， 需 要 研发 更 系 
统 的 解决 方案 和 上 下 游 技术 手段 ， 对 训练 数据 和 模型 
表现 进行 伦理 调节 ， 改 善 模型 在 各 个 环节 的 道德 敏感 
度 。 


TH 


» 


(3) 要 充分 探索 “价值 敏感 设计 ”“ 负 责任 创 
新 ”等 伦理 方法 在 通用 模型 语 境 下 的 可 行 性 。 不 仅 要 
将 伦理 规范 媒人 到 技术 研发 中 去 ， 更 要 考虑 如 何 通过 
对 模型 的 伦理 规制 与 技术 对 人 的 规制 的 双向 互动 , 真 
正 探索 出 合乎 伦理 的 模型 的 研发 之 路 ， 前 瞻 性 地 规避 
价值 缺失 、 价 值 冲 突 、 价 值 违背 等 价值 问题 ， 保 证 其 
在 合 规 、 合 伦理 的 框架 下 促进 人 工 智 能 的 发 展 。 


致谢 ”感谢 乔 宇 和 王 吴 奋 对 本 文 提出 的 建议 ， 感 谢 侍 则 成 的 
前 期 资料 收集 工作 。 
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Ethics and Governance of General Models: Challenges and Countermeasures 


* 


TENG Yan! WANG Guoyu?' WANG Yingchun’ 
(1 Governance Research Center, Shanghai Artificial Intelligence Laboratory, Shanghai 200232, China; 
2 School of Philosophy, Fudan University, Shanghai 200433, China; 
3 Center for Biomedical Ethics, Fudan University, Shanghai 200433, China ) 
Abstract In recent years, the general model is one of the most important development trends of artificial intelligence. With the rapidly 
increasing research and deployment of general models, the social and ethical effects of general models have received extensive attention. 
Grounded in the characteristics of general models, this article analyzes the potential ethical challenges of the models at three levels: algorithm, 
data, and computing power. The detailed challenges include uncertainty, truthfulness, reliability, bias, toxicity, fairness, privacy, and 
environmental issues. Also, through the lens of philosophy of technology, it elaborates the important reasons for the ethical challenges: the 
“mirroring” effect and transparency problem caused by the data-driven general models’ mediation between human and the world. This relation 
can be depicted as “human-model (data)-world”. Finally, from the perspectives of governance tools and governance mechanisms, this article 
reviews the current countermeasures and reflects on their limitations. It is recommended to establish an open, full-process, value-embedded 


ethical restraint mechanism to ensure that the general model develops in accordance with legal and ethical requirements. 


Keywords artificial intelligence, general model, risk, governance, ethics of technology 
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